尽管图像增强的最新进展,但现有方法仍然很难适应弱光和正常光图像的亮度和对比度。为了解决这个问题,我们提出了一种新型的2D直方直方图均衡方法。它假设强度发生和同时存在相互依赖,并通过在强度共发生的分布(2D直方图)上进行边缘化,从而导致强度发生的分布(1D直方图)。该方案更有效地改善了全局对比度,并减少了噪声扩增。2D直方图是通过将图像反射率中的局部像素值差异纳入密度估计中以减轻暗照明条件的不利影响的定义。超过500张图像用于评估,证明了我们的方法优于现有研究。它可以充分提高低光图像的亮度,同时避免正常光明图像中过度增强。
translated by 谷歌翻译
现有的图像增强方法无法达到预期,因为由于它们很难同时改善全球和本地图像对比度。为了解决这个问题,我们提出了一种基于直方图均衡的方法,该方法适应了亮度增强的数据依赖性要求,并提高了细节的可见性,而不会失去全局对比度。该方法将图像上下文提供的空间信息包含在密度估计中,以进行判别直方图均衡。为了最大程度地减少非均匀照明的不利影响,我们建议根据用边缘保留平滑估计的图像反射率来定义空间信息。我们的方法特别适合确定应如何调整背景亮度,并揭示隐藏在黑暗中的有用图像细节。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
公共网站上可用的音频数据量正在迅速增长,并且需要有效访问所需数据的有效机制。我们提出了一种基于内容的音频检索方法,该方法可以通过引入辅助文本信息来检索与查询音频相似但略有不同的目标音频,该信息描述了查询和目标音频之间的差异。虽然传统基于内容的音频检索的范围仅限于与查询音频相似的音频,但提出的方法可以通过添加辅助文本查询模型的嵌入来调整检索范围,以嵌入查询示例音频中的嵌入共享的潜在空间。为了评估我们的方法,我们构建了一个数据集,其中包括两个不同的音频剪辑以及描述差异的文本。实验结果表明,所提出的方法比基线更准确地检索配对的音频。我们还基于可视化确认了所提出的方法获得了共享的潜在空间,在该空间中,音频差和相应的文本表示为相似的嵌入向量。
translated by 谷歌翻译
Human pose estimation, particularly in athletes, can help improve their performance. However, this estimation is difficult using existing methods, such as human annotation, if the subjects wear loose-fitting clothes such as ski/snowboard wears. This study developed a method for obtaining the ground truth data on two-dimensional (2D) poses of a human wearing loose-fitting clothes. This method uses fast-flushing light-emitting diodes (LEDs). The subjects were required to wear loose-fitting clothes and place the LED on the target joints. The LEDs were observed directly using a camera by selecting thin filmy loose-fitting clothes. The proposed method captures the scene at 240 fps by using a high-frame-rate camera and renders two 30 fps image sequences by extracting LED-on and -off frames. The temporal differences between the two video sequences can be ignored, considering the speed of human motion. The LED-on video was used to manually annotate the joints and thus obtain the ground truth data. Additionally, the LED-off video, equivalent to a standard video at 30 fps, confirmed the accuracy of existing machine learning-based methods and manual annotations. Experiments demonstrated that the proposed method can obtain ground truth data for standard RGB videos. Further, it was revealed that neither manual annotation nor the state-of-the-art pose estimator obtains the correct position of target joints.
translated by 谷歌翻译
在培训滑雪板大空气期间,最受欢迎的冬季运动,运动员和教练广泛拍摄并使用单个摄像头或智能手机检查他们的跳跃尝试。然而,通过顺序观看视频,难以比较两项试验之间的性能的精确差异。因此,双侧显示或两个视频的叠加可能有助于训练。为实现这一点,必须确保多个性能的空间和时间对准。在这项研究中,我们使用现有的滑雪板大型空气训练提出了一种传统但合理的解决方案。我们与专家滑雪板进行了采访,他们表示时尚对齐的视频使他们能够精确地识别身体运动的轻微差异。结果表明,在滑雪板大空气训练期间可以使用该方法。
translated by 谷歌翻译